#Claude Sonnet
Claude Sonnet 4.5發佈,可連續程式設計30小時,Claude Code同款建構工具也開放了
看起來10月又是一個大月,DeepSeek用v3.2開場,Anthropic,Google,OpenAI都有大動作剛剛,Anthropic發佈了其最新前沿模型——Claude Sonnet 4.5官方稱,這是目前全球最強的程式碼模型、最強的複雜智能體建構模型、以及最擅長使用電腦的模型,並且在推理和數學能力上取得了顯著進步伴隨新模型發佈的,還有一系列產品全家桶的升級,Anthropic還首次開放了建構Claude Code的同款工具,最後還發佈了一個比較科幻的東西叫Imagine with Claude,可以即時動態生成軟體,不過目前還是研究預覽Claude Sonnet 4.5現已全面可用,通過API呼叫claude-sonnet-4-5即可。價格與上一代Sonnet 4保持不變,為每百萬token輸入3美元/輸出15美元新模型性能有多強?Anthropic表示,Claude Sonnet 4.5在衡量真實世界軟體編碼能力的SWE-bench Verified評估中達到了業界頂尖(SOTA)水平。在實際測試中,該模型能在複雜的多步驟任務上保持超過30小時的專注在電腦使用能力方面,Sonnet 4.5也實現了巨大飛躍。在測試AI模型真實世界電腦任務的OSWorld基準上,Sonnet 4.5以61.4%的得分領先。就在四個月前,Sonnet 4還以42.2%的成績保持領先此外,該模型在一系列廣泛的評估中也展示了更強的能力,包括推理和數學:來自金融、法律、醫學和STEM領域的專家發現,與包括Opus 4.1在內的舊模型相比,Sonnet 4.5在特定領域的知識和推理能力上表現出了顯著的提升產品全家桶重大升級Claude Code發佈 v2.0 了,升級了 UI 介面,推出了全新的VS Code擴展外掛。此外,還有一個實用的新功能:檢查點(checkpoints)。通過它,你可以快速撤銷Claude剛剛做出的修改,只需輕鬆按下Esc+Esc快速鍵,或者輸入指令/rewind即可實現Claude API增加了新的上下文編輯功能和記憶工具,使智能體能夠運行更長時間並處理更複雜的任務。Claude App中,程式碼執行和檔案建立(電子表格、幻燈片和檔案)功能被直接整合到對話中Claude for Chrome擴展已向所有上個月加入等待名單的Max使用者開放首次開放Claude Agent SDKAnthropic此次還開放了他們用於建構Claude Code的基石——Claude Agent SDK官方表示,他們解決了建構AI智能體過程中的多個難題:智能體如何在長時間任務中管理記憶、如何平衡自主性與使用者控制的權限系統、以及如何協調多個子智能體以實現共同目標現在,這套為Anthropic前沿產品提供動力的基礎設施正式向所有開發者開放,可用於建構自己的智能體地址:https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk(使用 Claude Agent SDK 建構 Agent)史上最對齊模型Anthropic稱,Claude Sonnet 4.5是其迄今為止最對齊的前沿模型通過提升模型能力和進行廣泛的安全訓練,模型的行為得到了顯著改善,減少了逢迎、欺騙、權力尋求和鼓勵妄想等不良行為。針對智能體和電腦使用能力,模型在抵禦提示注入攻擊方面也取得了長足進步Claude Sonnet 4.5在AI安全等級3(ASL-3)的保護下發佈。這些保護措施包括旨在檢測潛在危險輸入和輸出的分類器,特別是與化學、生物、放射性和核(CBRN)武器相關的內容如果分類器意外標記了正常內容,使用者可以方便地切換到CBRN風險較低的Sonnet 4模型繼續對話。Anthropic表示,自最初引入分類器以來,他們已將誤報率降低了十倍one more thing與Sonnet 4.5一同發佈的還有一個名為“Imagine with Claude”的限時研究預覽在這個實驗中,Claude能夠即時動態地生成軟體,沒有任何預定功能或預寫程式碼。使用者可以看到Claude根據互動請求進行即時建立和調整該功能向Max訂閱使用者開放,為期五天上手小測試我用之前測試新模型前端能力的提示詞測了一下,並且至少進行了5次抽卡,沒有一次成功,感覺Claude Sonnet 4.5程式碼能力提升貌似不大,提示詞如下:模擬,一個由彈力球組成的正方體漂浮在半空中,從正方體最下一層慢慢塌方,注意是,一層一層塌方,小球落在桌子上彈起來,直到靜止,模擬整個塌方過程,整個過程符合物理規律,效果要酷炫,整個環境要儘量逼近真實,在單個HTML中實現實現效果:一次掉落了兩層後,小球就不往下掉落了,核心的邏輯沒有實現完整的技術細節和評估結果,可參閱官方發佈的系統卡、模型頁面和檔案https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf(整整148頁)https://www.anthropic.com/claude/sonnethttps://docs.claude.com/en/docs/about-claude/models/overviewhttps://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents(這篇也很重要,講如何為Agent建構的上下文工程context engineering,詳細請看下一篇文章)官方測試方法說明SWE-bench Verified: 所有Claude結果均使用一個包含bash和檔案編輯兩個工具的簡單框架報告。在完整的500個問題的SWE-bench Verified資料集上,通過10次試驗平均,無測試時計算,200K思考預算,得分為77.2%OSWorld: 所有分數均使用官方OSWorld-Verified框架報告,最大步數為100,4次運行取平均值MMMLU: 所有分數均為在14種非英語語言上進行5次運行的平均值,並使用了擴展思考(最高128K)。其他模型的得分均引用自OpenAI和Google發佈的官方文章或排行榜 (AI寒武紀)
Anthropic稱DeepSeek未超越前沿,僅是訓練時間更晚:我們也可以用「500萬美元或廣告中宣傳的任何金額來訓練它」
最近,Anthropic的研究員Trenton Bricken在接受Dwarkesh Patel採訪時,對DeepSeek的成就提出了一個頗具爭議性的觀點。他聲稱:DeepSeek並沒有真正超越AI前沿,它只是訓練得更晚而已。「我們也能用500萬美元訓練出來!」Bricken在採訪中詳細解釋了他的觀點:DeepSeek是在Claude 3 Sonnet發佈九個月之後才開始訓練的。如果我們今天重新訓練同樣的模型,或者和DeepSeek同時進行訓練工作,我們也可以用500萬美元或者廣告中宣傳的任何金額來訓練它。他進一步強調:令人印象深刻或者說令人驚訝的是,DeepSeek確實達到了前沿水平。但我認為仍然存在一個普遍的誤解,認為他們遠超前沿。我不認為這是對的,我覺得他們只是等待了時機,然後能夠利用所有其他人也在經歷的效率提升。這番話的潛台詞很明顯:DeepSeek的成功更多是時機問題,而非技術突破。網友:「聽起來像失敗者的藉口」對於Bricken的這番言論,網友們的反應可謂是極具嘲諷。Roger Sterling(@rogersterling__) 回懟:聽起來像一個失敗者的藉口anku(@whoisanku) 更是直接地表示:自我安慰網友們的評論反映出了外界對Anthropic這種「事後諸葛亮」式解釋的質疑。畢竟,如果真的這麼容易,為什麼Anthropic當時沒有去做呢?怕使用者不願意付費了?還是擔心投資人不打錢呢?DeepSeek的發佈節奏而就在這場爭議發酵的同時,DeepSeek的下一步動作也浮出水面。根據最新消息,DeepSeek 或計畫在7月推出V4版本,R2 則可能在8月跟進,這比之前傳言的5月發佈時間有所推遲。值得注意的是,DeepSeek一直保持著大約7個月的旗艦模型發佈節奏:V1:2023年10月V2:2024年5月V3:2024年12月V4:預計2025年7月這種規律性的發佈節奏顯示出DeepSeek團隊的戰略規劃能力和對市場時機的精準把握。誰在「等待時機」?Bricken的觀點雖然有一定道理——技術確實在快速迭代,後發者可以享受到前人積累的效率提升——但這種說法也暴露出了一種微妙的心態。過去兩年裡,模型訓練效率的提升確實令人驚嘆。 如Bricken所說,這些效率增益讓後來者能夠以更低的成本達到同樣的效果。但問題在於:時機本身就是競爭力的一部分。DeepSeek選擇利用有限的資源,在「正確的時間」進入,利用已有的技術積累和效率提升,這本身就是一種戰略智慧。把這種成功歸結為「只是等待」,多少有些酸葡萄的味道。真正的問題或許是:為什麼其他公司沒有在同樣的時機做出同樣的選擇?隨著DeepSeek V4和R2的臨近發佈,這場關於「前沿」和「時機」的爭論註定還會繼續。而市場最終會用腳投票,告訴我們什麼才是真正的技術實力和正確的戰略。 (AGI Hunt)